AI产业链地图·知识库 Transformer 架构 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/Transformer 架构
更新 2026·06·17
概念 技术 / 术语

Transformer 架构

Transformer · 自注意力机制 · Self-Attention

Transformer 是基于自注意力机制(Self-Attention)的神经网络架构,相比 RNN/LSTM 解决了长程依赖建模并行计算两大瓶颈,使大规模预训练模型成为可能。

Transformer 架构 CONCEPT · 概念
首次提出
2017
关键参与方
[[Google]] · [[OpenAI]]
反向引用
15 处 · 来自 13
归属 深度学习Transformer神经网络架构第四层

Transformer 架构

2017 Google 论文 "Attention Is All You Need" 提出的神经网络架构,是 GPT / Claude / Gemini / Llama / DeepSeek 等所有现代 大语言模型 的算法基石。2024 全球基础模型市场 $85 亿中 Transformer 模型占 66.4%($56.4 亿)。

定义

Transformer 是基于自注意力机制(Self-Attention)的神经网络架构,相比 RNN/LSTM 解决了长程依赖建模并行计算两大瓶颈,使大规模预训练模型成为可能。

技术细节

  • Self-Attention — 序列内每个 token 直接关注所有其他 token
  • Multi-Head Attention — 多个注意力头并行学习不同关系
  • Position Encoding — 注入位置信息(无递归结构)
  • Decoder-Only / Encoder-Only / Encoder-Decoder 三种变体
  • 现代演进:FlashAttention / RoPE / GQA / MoE 等优化

主要玩家

  • Google — 论文原作(Vaswani 等)
  • OpenAI — GPT 系列 Decoder-Only 路线
  • Meta — Llama 开源 Transformer
  • DeepSeek — MLA + MoE Transformer 变体

演进历史

  • 2017-06 论文发表(Vaswani et al., NeurIPS)
  • 2018 BERT(Encoder-Only)+ GPT-1(Decoder-Only)
  • 2020 GPT-3 验证 scaling laws
  • 2022 后:MoE / FlashAttention / RoPE 等优化
  • 2024 推理时计算(o1 / R1)引入新范式

在 AI 产业链中的角色

Transformer 是 4-02-模型工厂算法基础设施。理解 Transformer 即理解现代 AI;其架构选择直接影响训练成本 / 推理速度 / 模型能力。

相关概念

∈ belongs_to::4-02-模型工厂